ServerlessLLM: Low-Latency Serverless Inference for Large Language Models

Yao Fu1 Leyang Xue1 Yeqi Huang1 Andrei-Octavian Brabete1 Dmitrii Ustiugov2 Yuvraj Patel1 Luo Mai1

1University of Edinburgh 2NTU Singapore

爱丁堡Luo Mai老师组的工作，NTU 新AP Dmitrii也有挂名

原作者的知乎帖子

第一视角下关于 ServerlessLLM 的故事（上） - 知乎

OSDI 2024，看完还没总结

一句话总结概括

加速LLM服务的冷启动

背景

先前工作存在的问题

难点

解决方案

创新点

fast multi-tier checkpoint loading
- 一种新的checkpoint format
- a multi-tier loading system
efficient live migration of LLM inference
startup-time-optimized model scheduling

实验评估

Q&A

results matching ""

No results matching ""